智能论文笔记

我们介绍了一种新颖的深度学习方法，用于使用高分辨率的多光谱空中图像在城市环境中检测单个树木。我们使用卷积神经网络来回归一个置信图，指示单个树的位置，该位置是使用峰查找算法本地化的。我们的方法通过检测公共和私人空间中的树木来提供完整的空间覆盖范围，并可以扩展到很大的区域。在我们的研究区域，跨越南加州的五个城市，我们的F评分为0.735，RMSE为2.157 m。我们使用我们的方法在加利福尼亚城市森林中生产所有树木的地图，这表明我们有可能在前所未有的尺度上支持未来的城市林业研究。

translated by 谷歌翻译

BMD-GAN: Bone mineral density estimation using x-ray image decomposition into projections of bone-segmented quantitative computed tomography using hierarchical learning

Yi Gu , Yoshito Otake , Keisuke Uemura , Mazen Soufi , Masaki Takao , Nobuhiko Sugano , Yoshinobu Sato

分类：计算机视觉

2022-07-07

我们提出了一种从普通X射线图像中估算骨矿物质密度（BMD）的方法。双能X射线吸收法（DXA）和定量计算机断层扫描（QCT）在诊断骨质疏松症方面具有很高的精度；但是，这些方式需要特殊的设备和扫描协议。测量X射线图像的BMD提供了机会筛查，这对于早期诊断可能有用。先前直接了解X射线图像和BMD之间关系的方法需要大型训练数据集，以实现高精度，因为X射线图像中的强度很大。因此，我们提出了一种使用QCT训练生成对抗网络（GAN）的方法，并将X射线图像分解为骨分割QCT的投影。提出的分层学习提高了定量分解小区域目标的鲁棒性和准确性。使用拟议的方法对200例骨关节炎评估，我们将其命名为BMD-GAN，在预测和地面真实DXA测量的BMD之间显示出Pearson相关系数为0.888。除了不需要大规模训练数据库外，我们方法的另一个优点是它的扩展性对其他解剖区域，例如椎骨和肋骨。

translated by 谷歌翻译

第一人称行动认可是视频理解中有挑战性的任务。由于强烈的自我运动和有限的视野，第一人称视频中的许多背景或嘈杂的帧可以在其学习过程中分散一个动作识别模型。为了编码更多的辨别特征，模型需要能够专注于视频的最相关的动作识别部分。以前的作品通过应用时间关注但未能考虑完整视频的全局背景来解决此问题，这对于确定相对重要的部分至关重要。在这项工作中，我们提出了一种简单而有效的堆叠的临时注意力模块（STAM），以基于跨越剪辑的全球知识来计算时间注意力，以强调最辨别的特征。我们通过堆叠多个自我注意层来实现这一目标。而不是天真的堆叠，这是实验证明是无效的，我们仔细地设计了每个自我关注层的输入，以便在产生时间注意力期间考虑视频的本地和全局背景。实验表明，我们提出的STAM可以基于大多数现有底座的顶部构建，并提高各个数据集中的性能。

translated by 谷歌翻译